2.4 重随机化 回归调整

我们在 2.3 看到了对于单个离散的协变量 X 的分层与后分层. 但是如果协变量是多维的/连续的呢? 在这里我们介绍重随机化和回归调整.

设计 分析
离散的协变量 分层 后分层
一般的协变量 重随机化 回归调整

1 重随机化

1.1 实验设计

依然假设 n 个实验单元, 这里 n1 个实验组 n0 个对照组. 记 Z=(Z1,,Zn) 为指示实验组分配的向量. i 有协变量 XiRK, 将他们合并成 n×K 协变量矩阵 X=(X1,,Xn)T. 假设 X=1ni=1nXi=0.
CRE 中 τ^X=1n1i=1nZiXi1n0i=1n(1Zi)Xi 有均值 0, 但实际分组中通常都不为 0. 我们可以证明 Cov(τ^X)=1n1SX2+1n0SX2=nn1n0SX2, 这里 SX2=1n1i=1nXiXiT.

我们可以用 Mahalanobis 距离 M=τ^XTCov(τ^X)1τ^X=τ^XT(nn1n0SX2)1τ^X
来定义实验、对照组的相异程度. 这个式子只在 SX2 可逆的时候有意义, 也即 X 的列线性无关. 我们要在实验前去掉线性相关的列.

引理

如果我们对 Xi 做线性变换 Xib0+BXi,1in, 这里 b0RK,BRK×K 可逆, 则 M 保持不变.

n 很大, CRE 下 M 基本上就是 χK2. 因此 Mn 很大时几乎有均值 K 和方差 2K. 当我们进行随机化, 我们评估 M 的值, 当它很大时我们舍弃它, 这样就实现了重随机化.

ReM

从 CRE 中采样 Z, 只在 Ma 的时候接受它, 这里 a>0 是我们事先确认的常量.

a 很大时, 几乎就是 CRE; 当 a 很小时, 没有什么随机化的空间基本上没用. 我们一般选一个小的但是不是特别小的 a, 例如 a=0.001, 或者一些 χK2 的较大的分位数.

1.2 统计推断

如果我们不给出很强的零假设, 如何得到有限样本的相关性质? 我们定义下面的假设条件:

假设

n 时,

  1. n1n, n0n 有正的极限.
  2. {Xi,Yi(1),Yi(0),τi} 的协方差有有限的极限
  3. max1in{Yi(1)Y(1)}2n0, max1in{Yi(0)Y(0)}2n0, max1inXiTXin0.

LK,aD1|DTDa, 这里 D=(D1,,DK) 服从一个 K 维标准正态分布; 记 ε 服从标准正态分布, LK,aε.

定理

Ma 的 ReM 和上述假设下, [1]τ^τVar(τ^){R2LK,a+1R2ε}, 这里 Var(τ^)=S2(1)n1+S2(0)n0S2(τ)n 是我们在 Neyman 定理里证明过的样本方差, R2=Corr2(τ^,τ^X) 是相关系数的平方.

Pasted image 20251010092710.png|400

这个定理有直观的几何解释. 如图, τ^τ 可以分解成一个 τ^X 里的线性组合的分量, 以及一个正交 τ^X 的分量, 它们的比例关系为 R2LK,a:1R2ε. ReM 只会影响第一个分量.

a=, 渐近分布退化为 CRE: τ^τVar(τ^)ε. 当 a 接近 0, LK,a0, τ^τVar(τ^)(1R2)ε.

命题

在 CRE 下我们有 R2=Corr2(τ^,τ^X)=n11S2(1|X)+n01S2(0|X)n1S2(τ|X)n11S2(1)+n01S2(0)n1S2(τ), 这里 {S2(1),S2(0),S2(τ)}{Yi(1),Yi(0),τi}i=1n 的有限总体的方差, {S2(1|x),S2(0|x),S2(τ|x)} 是对应的它们在 (1,Xi) 上的线性投影.
在假设 τi=τ 下, R2=S2(0|X)S2(0).

2 回归调整

如果在设计阶段我们不进行重随机化, 而是在分析阶段处理协变量的不均匀分布呢?

2.1 调整协变量的 FRT

有了协变量, FRT 的大致思路不变.

伪结果策略

我们可以基于残差构建检验量. 我们把 YiXi 上回归[2]得到 ε^i.

模型结果策略

我们可以把回归的系数作为检验量. 把 Yi(Zi,Xi) 上回归, 得到 Zi 的系数.

伪结果策略不包含 Zi, 因为我们要确保如果原始结果符合 H0F, 则伪结果也符合. 而在模型结果策略中, 我们加入 Zi 的系数来看看它和 H0F 的偏离程度. 从计算上看, 策略 1 要运行 1 次, 策略 2 要运行若干次.

2.2 协方差的分析

Fisher 提出了协方差分析 (ANCOVA). 在 (1,Zi,Xi) 上对 Yi 回归, 把 Zi 的系数作为 τ 的估计量. 记最后的结果为 τ^F.
David A. Freedman 和 Winston Lin 先后提出

Neyman 定理指出 τ^ 的方差取决于潜在结果的方差, 因此我们可以试图减小潜在结果的方差. 考虑线性调整族τ^(β1,β0)=1n1i=1nZi(Yiβ1TXi)1n0i=1n(1Zi)(Yiβ0TXi)={Y^(1)β1TX^(1)}{Y^(0)β0TX^(0)},
这里 ^ 是定义的样本均值. 当 β1=β0=0 时, 它就是 τ^. 因为 X=0, 所以 τ^(β1,β0) (固定 β1,β0) 均值为 0. 我们希望找到最小化 τ^(β1,β0)(β1,β0).
再次引用 Neyman定理, Var{τ^(β1,β0)}=S2(1;β1)n1+S2(0;β0)n0S2(τ;β1,β0n, 这里 S2(z;βz),S2(τ;β1,β0) 是有限总体的方差 (分别是调节的潜在输出和个体因果效应).
基于此, 我们得到一个更保守的估计量[3] V^(β1,β0)=S^2(1;β1)n1+S^2(0;β0)n0, 这里S^2(1;β1)=1n11i=1nZi(Yiγ1β1TXi)2,S^2(0;β0)=1n01i=1n(1Zi)(Yiγ0β0TXi)2 是样本方差, γ1,γ0 是实验组下 Yiβ1TXi 的样本均值, 和对照组下 Yiβ0TXi 的样本均值. 我们解如下的最优化问题: minγ1,β1i=1nZi(Yiγ1β1TXi)2,minγ0,β0i=1n(1Zi)(Yiγ0β0TXi)2. 直接应用 OLS 得到 (γ^1,β^1)(γ^0,β^0). 再结合 OLS 的性质: Y^(1)=γ^1+β^1TX^(1), Y^=γ^0+β^0TX^(0), 得到 (2.1)τ^(β^1,β^0)=γ^1γ^0.

从上式看出, 我们可以用单个 OLS 来获得 τ^(β^1,β^0):

命题

(2.1) 的 τ^(β^1,β^0) 等于 Yi(1,Zi,Xi,Zi×Xi) 上回归后 Zi 的系数, 也就是之前提到的 τ^L.

基于这些讨论, 我们有一个保守的估计 τ^L 的量: V^(β^1,β^0)=1n1(n11)i=1nZi(Yiγ^1β^1TXi)2+1n0(n01)i=1n(1Zi)(Yiγ^0β^0TXi)2.

我们可以进一步证明上述命题中 OLS 的 EHW 标准误差几乎就是 V^(β^1,β^0), 这是一个 CRE 下 τ^L 的保守估计. 但是这里有一个小问题: 方差 Var{τ^(β1,β0)} 对固定的 (β1,β0) 有效, 但 τ^(β^1,β^0) 用了两个估计量 (β^1,β^0), 这里额外的不确定性可能会导致有限样本下的偏差. 不过如果 β^1β~1, β^0β~0, 那么 τ^(β^1,β^0)τ^(β~1,β~0), 这个偏差就会消失.
事实上 τ^(β^1,β^0), τ^(β~1,β~0) 之差取决于 (β^zβ~z)TX^(z),z=0,1. 还是要强调, 在有限样本下回归调整可能是有害的, 必须要大的样本规模和一些潜在结果、协变量的正规性条件.

2.2.1 一个基于预测潜在结果的估计量

基于实验组的数据, 我们构建一个 Y(1) 的预测模型 μ^1(X)=γ^1+β^1TX.
类似地, 也有 Y(0) 的: μ^0(X)=γ^0+β^0TX.
给出如下科学表:

X Z Y(1) Y(0) Y^(1) Y^(0)
X1 1 Y1(1) ? μ^1(X1) μ^0(X1)
Xn1 1 Yn1(1) ? μ^1(Xn1) μ^0(Xn1)
Xn1+1 0 ? Yn1+1(0) μ^1(Xn1+1) μ^0(Xn1+1)
Xn 0 ? Yn(0) μ^(Xn) μ^0(Xn)
则我们可以有如下估计量: τ^pred=1n{Zi=1Yi+Zi=0μ^1(Xi)Zi=1μ^0(Xi)Zi=0Yi}.
可以证明它等于 τ^L (定义见 [[#^6a1ea6 这里]]). 如果我们即使对观察到的结果也进行预测, 我们有如下 投影估计量τ^proj=1ni=1n{μ^1(Xi)μ^0(Xi)}.
并且它也等于 τ^L.

2.2.2 从协变量不均衡性角度理解

我们可以证明等价形式 τ^(β1,β0)=τ^γTτ^X, 这里 γ=n0nβ1+n1nβ0, 因此我们也可以改写成 τ^(γ)=τ^(β1,β0). 类似地 τ^L=τ^γ^Tτ^X,γ^=n0nβ^1+n1nβ^0.

2.3 一些其他的注解

命题

基于 Xiτ^L 在数值上等于基于 Ci 后分层的 τ^PS.

2.4 到 SRE 的推广

回顾 SRE. 如果每个分层都很大, 可以在分层上进行回归调整 τ^L,S=k=1Kπ[k]τ^L,[k]. 对应的保守方差估计 V^L,S=k=1Kπ[k]2V^EHW,[k].


  1. 表示这两个随机变量有相同的渐近分布. ↩︎

  2. 这里的"回归"是一个笼统的词, 可以是线性回归, Logistic 回归, 或者机器学习算法. 我们接下来讨论的会是基于 OLS 的. ↩︎

  3. 更保守指它的方差更大 ↩︎